当前位置: 开发笔记 > 编程语言 > 正文

语料|分类法_西电综述《知识增强预训练模型》

作者：上帝的爱神_413_645 | 来源：互联网 | 2023-09-17 10:25

篇首语：本文由编程笔记#小编为大家整理，主要介绍了西电综述《知识增强预训练模型》相关的知识，希望对你有一定的参考价值。点上方人工智能算法与

篇首语：本文由编程笔记#小编为大家整理，主要介绍了西电综述《知识增强预训练模型》相关的知识，希望对你有一定的参考价值。

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★&＃xff0c;第一时间获取资源

仅做学术分享&＃xff0c;如有侵权&＃xff0c;联系删除

转载于 &＃xff1a;专知

预训练模型是当下研究的热点&＃xff0c;来自西电的研究人员发布《知识增强的预训练模型》&＃xff0c;非常值得关注&＃xff01;

预训练模型通过自监督学习方法在大规模文本语料库上学习上下文化的词表示&＃xff0c;该方法经过微调后取得了良好的性能。然而&＃xff0c;这些模型的健壮性差&＃xff0c;且缺乏可解释性。带有知识注入的预训练模型(knowledge enhanced pre- training model, KEPTMs)具有深刻的理解和逻辑推理能力&＃xff0c;并在一定程度上引入了可解释性。在这个综述中&＃xff0c;我们提供了自然语言处理的KEPTMs的全面概述。首先介绍了预训练模型和知识表示学习的研究进展。然后我们从三个不同的角度对现有KEPTMs进行了系统的分类。最后&＃xff0c;对KEPTMs的未来研究方向进行了展望。

https://www.zhuanzhi.ai/paper/2e6a280b91bab87be5075bc650650678

引言

数据和知识是人工智能的核心。深度学习[1]&＃xff0c;[2]&＃xff0c;[3]借助神经网络的分布式表示和层次结构泛化&＃xff0c;可以充分利用大规模数据。基于深度学习的预训练模型[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]有了质的飞跃&＃xff0c;促进了下游自然语言处理(NLP)的广泛应用。虽然它们可以从大规模的无监督语料库中获取词汇、句法和浅层语义信息&＃xff0c;但它们是统计模型&＃xff0c;受重尾数据分布的限制&＃xff0c;导致无法深入理解和因果推理和反事实推理。此外&＃xff0c;尽管深度学习在学习数据背后的关键因素方面很强大&＃xff0c;但由于纠缠表示&＃xff0c;预先训练的模型失去了可解释性。知识为模型提供了全面而丰富的实体特征和关系&＃xff0c;克服了数据分布的影响&＃xff0c;增强了模型的鲁棒性。此外&＃xff0c;知识为模型引入了显式语义的可解释性。因此&＃xff0c;利用不同的知识来实现预先训练的具有深度理解和逻辑推理的模型是必不可少的。为了更好地集成知识和文本特征&＃xff0c;将符号知识投影到一个密集的、低维的语义空间中&＃xff0c;并通过分布式向量通过学习[19]的知识表示来表示。在此背景下&＃xff0c;研究人员探索了通过注入知识来概括知识驱动和语义理解所需场景的方法来改进预先训练的模型。

这项综述的贡献可以总结如下:

全面综述。本文对自然语言处理的预训练模型和知识表示学习进行了综述。
新分类法。我们提出了一种面向自然语言处理的KEPTMs分类法&＃xff0c;根据注入知识的类型将现有KEPTMs分为三组&＃xff0c;并根据知识与语料库的耦合关系和知识注入方法进一步划分不同组对应的模型。
未来的发展方向。讨论分析了现有KEPTMs的局限性&＃xff0c;并提出了未来可能的研究方向。

近年来&＃xff0c;预训练模型的逐步发展引起了研究者的广泛关注。然而&＃xff0c;尽管他们在创作上付出了巨大的努力&＃xff0c;但却无法理解文本的深层语义和逻辑推理。此外&＃xff0c;从模型中学习到的知识存在于参数中&＃xff0c;是无法解释的。通过注入KGs的实体特征和事实知识&＃xff0c;可以极大地缓解鲁棒性差和可解释性不足的问题。本文介绍的预训练模型大多侧重于语言知识和世界知识的利用&＃xff0c;这些知识属于2.2.1节中定义的事实知识或概念知识。这类知识为预训练模型提供了丰富的实体和关系信息&＃xff0c;极大地提高了预训练模型的深度理解和推理能力。

为了比较和分析现有的KEPTMs&＃xff0c;我们首先根据注入知识的类型将其分为三类: 实体增强的预训练模型、三元组增强的预训练模型和其他知识增强的预训练模型。对于实体增强的预训练模型&＃xff0c;所有这些模型都将知识和语言信息存储在预训练模型的参数中&＃xff0c;属于基于耦合的KEPTMs。根据实体注入的方法&＃xff0c;进一步将其分为实体特征融合模型和知识图谱监督预训练模型。对于三联体增强的训练前模型&＃xff0c;我们根据三联体与语料是否耦合&＃xff0c;将其分为基于耦合和基于解耦的KEPTMs。基于耦合的KEPTMs在训练前将单词嵌入和知识嵌入纠缠在一起&＃xff0c;无法保持符号知识的可解释性。根据三联体输注方法&＃xff0c;将基于耦合的KEPTMs分为三组: 嵌入联合KEPTMs、数据结构统一KEPTMs和联合训练KEPTMs。而基于解耦的KEPTMs则分别保留了知识和语言的嵌入&＃xff0c;从而引入了符号知识的可解释性。我们将其划分为基于检索的KEPTMs&＃xff0c;因为它通过检索相关信息来利用知识。其他知识增强模型也可分为基于耦合和基于解耦的KEPTMs。我们进一步将其分为联合训练和基于检索的KEPTMs。

---------♥---------

声明&＃xff1a;本内容来源网络&＃xff0c;版权属于原作者

图片来源网络&＃xff0c;不代表本公众号立场。如有侵权&＃xff0c;联系删除

AI博士私人微信&＃xff0c;还有少量空位

如何画出漂亮的深度学习模型图&＃xff1f;

如何画出漂亮的神经网络图&＃xff1f;

一文读懂深度学习中的各种卷积

点个在看支持一下吧

推荐阅读

spring
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
spring
知识图谱与图神经网络在金融科技中的应用探讨

本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲，探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]

蜡笔小新 2024-11-21 15:02:52
io
探索CNN的可视化技术

神经网络的可视化在理论学习与实践应用中扮演着至关重要的角色。本文深入探讨了三种有效的CNN（卷积神经网络）可视化方法，旨在帮助读者更好地理解和优化模型。 ... [详细]

蜡笔小新 2024-11-24 11:30:28
io
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
io
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
io
深度学习与神经网络课程总结

本文档总结了神经网络和深度学习课程中的关键概念和理论，包括机器学习的基本要素、算法类型以及数据特征表示等。 ... [详细]

蜡笔小新 2024-11-26 11:31:09
io
本周三大青年学术分享会即将开启

由雷锋网旗下的AI研习社主办，旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享，活动致力于搭建一个连接理论与实践的平台。 ... [详细]

蜡笔小新 2024-11-21 17:13:10
io
从一维到三维的模型扩展

本文源自Coursera平台吴恩达教授的深度学习课程，重点探讨了卷积神经网络（ConvNets）从二维图像处理向一维信号及三维数据处理的拓展应用。 ... [详细]

蜡笔小新 2024-11-20 16:09:22
io
自动驾驶中的9种传感器融合算法

来源丨AI修炼之路在自动驾驶汽车中，传感器融合是融合来自多个传感器数据的过程。该步骤在机器人技术中是强制性的，因为它提供了更高的可靠性、冗余性以及最终的 ... [详细]

蜡笔小新 2024-11-16 12:07:16
io
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
io
尤洋：夸父AI系统——大规模并行训练的深度学习解决方案

自从AlexNet等模型在计算机视觉领域取得突破以来，深度学习技术迅速发展。近年来，随着BERT等大型模型的广泛应用，AI模型的规模持续扩大，对硬件提出了更高的要求。本文介绍了新加坡国立大学尤洋教授团队开发的夸父AI系统，旨在解决大规模模型训练中的并行计算挑战。 ... [详细]

蜡笔小新 2024-11-25 19:02:33
io
RabbitMQ 核心组件解析

本文详细介绍了RabbitMQ的核心概念，包括其基本原理、应用场景及关键组件，如消息、生产者、消费者、信道、交换机、路由键和虚拟主机等。 ... [详细]

蜡笔小新 2024-11-25 12:22:15
search
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05
utf-8
机器学习（ML）三之多层感知机

深度学习主要关注多层模型，现在以多层感知机（multilayerperceptron，MLP）为例，介绍多层神经网络的概念。隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏 ... [详细]

蜡笔小新 2024-11-19 19:02:28
utf-8
深度学习入门 - 理解神经网络的基本概念

本文介绍了实现人工智能的多种方法，并重点探讨了当前最热门的技术——通过深度学习训练神经网络。文章通过具体实例详细解释了神经网络的基本原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 17:35:06

上帝的爱神_413_645

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章